Retrieval-Technologien für die Plagiaterkennung in Programmen
نویسندگان
چکیده
Plagiaterkennung in Programmen (Quellcode) funktioniert analog zu der in Texten: gegeben ist der Quellcode eines Programms dq sowie eine Kollektion D von Programmquellen. Die Retrieval-Aufgabe besteht darin, in dq alle Codeabschnitte zu identifizieren, die aus Dokumenten in D übernommen wurden. Im vorliegenden Papier werden Parallelen und Unterschiede zwischen der Plagiaterkennung in Texten und der in Computerprogrammen aufgezeigt, ein neues Maß zum Ähnlichkeitsvergleich kurzer Code-Abschnitte vorgestellt und erstmalig Fingerprinting als Technologie für effizientes Retrieval aus großen Codekollektionen (|D| ≈ 80.000) demonstriert. In den von uns durchgeführten Experimenten werden kurze Codeabschnitte aus D, die eine hohe Ähnlichkeit zu Abschnitten aus dq aufweisen, mit einer Precision von 0.45 bei einem Recall von 0.51 in konstanter Zeit gefunden.
منابع مشابه
Workshop Information Retrieval 2008 6 . - 8 . October 2008 , University of Würzburg , Germany
Plagiaterkennung in Programmen (Quellcode) funktioniert analog zu der in Texten: gegeben ist der Quellcode eines Programms dq sowie eine Kollektion D von Programmquellen. Die Retrieval-Aufgabe besteht darin, in dq alle Codeabschnitte zu identifizieren, die aus Dokumenten in D übernommen wurden. Im vorliegenden Papier werden Parallelen und Unterschiede zwischen der Plagiaterkennung in Texten und...
متن کاملBasisinitiative für eine Parteibildung von unten (BiPu) - ein sozio-technischer Ansatz für die demokratische Texterstellung
Politische Parteien sollen bei der politischen Willensbildung mitwirken. Dieser Prozess kann in der Praxis durch Internet-Portale unterstützt werden. Wir stellen hier einen Ansatz vor, die innerparteiliche Abstimmung von Satzungen, Positionen und Programmen mit Hilfe von Internet-Technologien zu unterstützen, ohne gleichzeitig die Kontrolle über den demokratischen Abstimmungsprozess zu verlieren.
متن کاملMethoden und Werkzeuge für die Software Migration
Die Autoren entwickeln seit 1994 kommerziell Werkzeuge für die Software Migration und setzen diese in praktischen Migrationsprojekten ein. Obwohl diese Werkzeuge wesentlich mit der Compilierung vergleichbare Aufgaben wie Scannen, Parsen und Generierung realisieren, existieren Unterschiede in der Arbeitsweise von Migrationswerkzeugen zu denen klassischer Compiler. Der vorliegende Beitrag vermitt...
متن کاملHerausforderungen der Technischen Informatik beim Unkonventionellen Rechnen
Unkonventionelles Rechnen bezeichnet eine zumeist interdisziplinär ausgerichtete Forschungsrichtung, in der neue und alternative Methoden und Technologien für die Rechentechnik erschlossen werden. Die Nutzung von Techniken der Photonik, der Nanotechnik, des Quantencomputing oder auch von analogen Spezialprozessoren sind Beispiele für Unkonventionelles Rechnen. Die große Herausforderung aus Sich...
متن کاملAnwendung von Precision Farming Technologien für ein integriertes und automatisiertes Supply Chain Management bei Getreide
Für die Organisation eines Supply Chain Managements, das die Produzenten mit einbezieht, bieten sich Precision Farming Technologien, insbes. zur automatischen Prozessdatenerfassung, an. Die informationsseitige Abbildung von Aggregationen sowie Disaggregationen von Getreidepartien entsprechend der unterschiedlichen logistischen Einheiten ist mit einer hohen Komplexität verbunden. Für den Erfolg ...
متن کامل